生物物种,包括病毒,在被称为进化的过程中,会随着世代和时间发生变化。这些变化首先固定在成功个体的基因组中,从而产生遗传谱系。由于复制基因组的复制装置的保真度有限或环境的物理化学活性,核苷酸可能被改变、插入或删除。其他来源的基因组也可能是基因组创新的来源,通过使用特殊进化的遗传交换(重组)机制。被接受的变化,即突变,可能是中性的,有利的,或有害的,根据种群大小和环境,突变谱系可能增殖或灭绝。总的来说,有利的突变和庞大的种群规模增加了一个谱系成功的机会。一个世系的适应性在不断变化的环境中不断被重新评估,由于突变,在过去成为一个成功的世系可能不适合新的环境。由于基因组中积累的突变越来越多,谱系随着时间的推移而分化,尽管偶尔由于随机原因或在类似的选择压力下,它们可能会收敛。

由共同血统所相关的生物谱系之间的关系称为系统发育;同样的术语也体现了重建这些关系的方法。系统发育学处理过去的事件,因此,它是通过对不同谱系之间积累的差异进行量化来重建的。由于缺乏化石和(相对)高突变率,病毒不被认为是系统发育的可恢复部分,直到分子数据的出现证明了相反的情况。核苷酸和氨基酸序列的比较,以及偶尔的其他定量特征,如生物聚合物三维结构之间的距离,已被用于重建病毒的系统发育。系统发育分析的结果通常以树的形式描述,可以用作系统发育的同义词。例如,细胞物种的全面系统发育被称为生命树(ToL)(图1A)。最近,两种技术,网络和树木森林,分别被用来描述系统发育关系的复杂性和系统发育推断的不确定性。 除了少数例外,病毒的系统发育遵循为细胞生命形式的系统发育而发展的理论和实践。为了推断系统发育,要分析假设具有可识别的共同起源的物种成员序列之间的差异。如果所有谱系中的物种都以一个一致的恒定速率进化,就像时钟滴答滴答一样,那么它们的进化就符合一个分子时钟模型。这一模型在病毒方面的效用可能非常有限。相反,相关病毒谱系可能以不同和波动的速度进化,一些位点可能重复突变,包括反向取代。因此,重建所有位点的完整变化记录伴随着每一个新突变的不断增加的不确定性。此外,种间残留差异的积累可能随时间推移呈非线性发展。目前,我们对病毒进化的这些参数的理解很差,这限制了我们评估重建的系统发育和真正的系统发育之间的匹配度的能力,而后者对大多数病毒分离株实际上仍然未知。我们知识上的这一差距并没有削弱系统发育分析在重建包括病毒在内的生物物种之间关系方面的概念力量和效用。

病毒系统发育的最终目标是重建“所有”病毒分离株和物种之间的关系。例如,细胞物种形成三个(或两个)紧密结构域(王国),它们的起源可以追溯到ToL中的一个共同祖先,使用核糖体RNA或一组共同的单拷贝基因。由于病毒的多样性和缺乏普遍的分子分母(特征),这种推断对病毒来说是不可行的。因此,重建全面的病毒系统发育可能需要涉及病毒和细胞起源基因组的比较。这项艰巨的任务在很大程度上仍在“进行中”。事实上,病毒系统发育的大部分努力都是投入在微观而非宏观尺度上重建关系,他们关注的是具有实际(如医学)相关性的采样良好的谱系。最近,由于高通量下一代测序(NGS)和宏基因组学的出现,通过系统发育来表征不同病毒组和整个病毒圈的远程关系已成为一个活跃的研究领域。系统发育学本身或与其他数据结合可以深入了解病毒进化和病毒生命周期的各个方面,包括病毒与宿主的相互作用。

我们对当代病毒多样性的认识一直在稳步进步,通过系统的努力和偶尔的发现,我们不断地描述新的病毒。这些进展表明,迄今为止只有病毒多样性的一小部分被揭示出来,并可用于系统发育研究。也有可能过去存在着更多的血统;其中一些血统可能与当代血统有祖先关系。

树的定义

物种之间的相似性取决于进化的速度和分化的时间。从一个共同的祖先产生当代物种多样性的整个过程被认为是通过一个针对所分析物种的不同子集的中间祖先链进行的(图2)。通常,这些祖先序列在树构建过程中在内部估计,或者完全不需要,这取决于所使用的方法。共同祖先、中间祖先和当代物种之间的关系可以分别比作树的根、内部节点和终端节点(叶子)之间的关系,这种抽象被广泛用于这种关系的可视化(图2)。当代序列与重构树并排对齐,如图2中的示例所示。可以揭示进化过程中发生的序列变化的完整链,然而,由于重复替换和不完整的物种采样,真实数据集很少出现这种情况。树也是图论的一部分,图论是数学的一个分支,它的仪器用于系统发育。由于系统发育和分类学之间的紧密联系,叶子可以被称为操作分类学单位(OTUs),内部节点和根,因为它们没有被直接观察到,被称为假设分类学单位(HTUs)。节点由分支或边连接。

树可以通过拓扑结构、分支长度、形状和根的位置来表征(图3)。拓扑由内部节点和终端节点的相对位置决定;它定义了导致当代物种多样性的分支事件。如果为不同数据集获得的两个或多个树具有相同的拓扑结构,这些树称为同余树。树的分支长度可以定义固定的变化量或树中连接的两个节点之间经过的时间,分别被称为“相加”或“超度量”(图3B和C)。树的形状可能与进化过程的细节有关,并反映了由于遗传漂变和自然选择导致的种群规模和多样性的变化。根在树中的位置决定了进化的方向。从一个有根树的内部节点继承下来的物种形成一个谱系(集群),该节点被称为谱系的最近共同祖先(MRCA),因此具有单系起源(图2)。对于一个树,分支长度和根位置可能是未定义的,然后分别称为“cladogram”和“un树根树”(图3A)。

进化树分析

多核苷酸或氨基酸序列的多重比对,代表所分析的物种和相似性的最大化,传统上被用作系统发育分析的输入。对齐的质量是影响系统发育推断质量的最重要因素之一。由于遗传密码的冗余性,多核苷酸序列的变化比氨基酸序列的变化积累速度要快。在病毒(包括RNA病毒)中,这种差异不会被与双核苷酸频率或RNA二级(三级)结构相关的基因组变异的其他局部或全局限制所抵消。由于这些差异,多核苷酸序列通常只用于密切相关的物种的系统发育重建,而蛋白质序列保存了更好的系统发育信号,可用于推测远亲物种的系统发育。

从排列中计算出的物种之间的差异,可以量化为形成距离矩阵的成对距离或特定位置的替换列(排列状态的离散特征),后者保留了关于差异位置的知识。处理这些定量特征的方法分别称为距离和离散(字符状态)。距离方法因其速度而受到称赞,被认为是分析非常大的数据集的首选技术,尽管字符状态方法由于最近的算法进步而在这方面赶上了(见下文)。距离方法通常被设计成通过聚类来收敛于一个独特的系统发育,甚至不考虑其他方法。UPGMA是第一个引入聚类的方法,该方法通过一次对大部分相似对进行系统的逐步合并,用一个不断重新计算的距离矩阵来定义相似点的层次。邻居连接(NJ)方法使用一种更复杂的聚类算法,最小化分支长度,是距离方法中最受欢迎的。

虽然不同的树可以比较它们如何适合一个距离矩阵,但它是基于字符的方法,通常用于评估大量的备选系统发育,以在计算密集的过程中寻找最佳的一个。由于计算时间的关系,评估所有可能的系统发育被发现是不切实际的数据集包括超过10个序列;对于较大的数据集,使用不同的启发式近似,可能不能保证恢复的系统发育是最好的总体。利用基于特征状态的信息通过最大简约性(MP)或最大似然(ML)选择最佳系统发育有两个主要标准。在MP分析中,寻找的系统发育与最小数量的取代分离所分析的物种。ML分析提供了一个统计框架,用来比较不同树与竞争进化模型下的数据拟合的可能性,包括种群大小变化和突变率等参数,以寻找最适合的一个。后一种方法在数学上是稳健的,它的统计能力也可以与其他树生成技术结合使用。最近,ML方法的一种贝叶斯变体受到了欢迎。它可以利用关于进化过程的先验知识,如已知的替代率或物种子集的聚类或物种隔离的日期,并结合从随后派生的假设中重复采样。因此,贝叶斯分析的结果是一个树的森林,它反映了与重构的系统发育相关的不确定性,并形成了派生共识树和其分支的统计支持的基础。在病毒的系统发育分析中,在贝叶斯框架下,物种分离的日期通常用于所分析病毒的MRCA日期,而化石信息通常用于对细胞生物树进行时间校准。贝叶斯方法由于其采样方法具有最高的计算成本,因此显示了最低的速度,而同样先进的ML算法的实现可能在速度上与距离方法大致相当,允许对非常大的数据集进行系统发育分析,如细胞有机体的全基因组树重构或数以千计的病毒。

人们应该记住,对于相同的数据集,不同的系统发育重建方法可以产生不同的树,包括拓扑和分支长度,尽管ML树和贝叶斯树之间的更好一致是常见的,特别是在分支长度方面(图4)。没有一种方法被认为在系统发育重建的所有方面优于其他方法,在什么情况下使用哪种方法经常是一个争论点。在系统发育结果中获得进一步信任的一个有效方法是在数据上应用几种方法,并且只信任由多种方法推断出来的htu。

在选择树之后,通常通过评估节点在与所选树相关的树中的持久性来为内部节点分配支持值。有一种特殊的技术叫做自举分析,即对原始数据集的大量随机修正导数生成树,这种技术最常用于基于距离的分析以及MP和ML分析。原始树中的每个内部节点都有一个所谓的引导值,该值等于一个节点在所有测试树中出现的次数。尽管自举值和统计值之间的关系不是线性的,但自举值非常高的节点被认为是可靠的。在贝叶斯分析中,内部节点的支持度通过后验概率值来量化。

如果物种根据分子时钟模型进化,则可以直接从观察到的种间差异计算出树的根位置,作为累积的种间差异的中点。或者,也可以根据从系统发育分析中独立获得的关于被分析物种的知识,将根位置分配给树。通常,这种知识以单个或多个物种的形式出现,这些物种被假设(或已知)在所分析的群集“诞生”之前就已经出现了。这些早期分化的物种被统称为“外群”,而被分析的物种可能被称为“内群”(图3B, C)。此外,可能会生成无根树,这是病毒系统发育分析中常见的做法,因为分子时钟模型的适用性在很大程度上尚未得到检验,而且可能无法常规获得可靠的外群(图4)。在无根树中,物种在独立集群中的分组可能很明显。尽管在进化方向尚未确定的情况下,这些类群可能不会被视为单系的。这些挑战可以通过开发新的方法来解决,这种方法可以推断出有根的树,而不人为地将物种进化限制在恒定的速率上(称为放松分子钟模型)。

病毒的系统发育可以使用基因组或不同的基因来推断,这些方法都是系统基因组学的标准方法,可以被认为是互补的。在第一种方法中,全基因组比对用于分析。由于进化过程的复杂性可能是区域特异性的,可靠的全基因组比对通常只能对相对密切相关的病毒建立,然而,重组事件可能使其分析进一步复杂化(见下文)。使用第二种方法,没有重组证据的基因可能被合并(连接)到单个数据集中,这可能被用于产生比那些为不同基因或整个基因组产生的更好的系统发育信号。对于具有小基因组的病毒或不同的病毒集,通常的做法是使用单个基因推断病毒的系统发育。虽然所产生的结果可能是描述一组病毒进化历史的最佳模型,但这种基于基因的全基因组外推方法的有效性仍然是一个争论点。近年来,网络方法被用于推断和描述多基因病毒基因组的进化关系,考虑到基因特异性序列的亲和性。

当基因树被用来代表整个基因组的系统发育时,一个基本的最常见的假设是,它的拓扑结构而不是分支长度适用于不同的基因组区域,以反映它们的共同进化具有潜在的不同替代率。这一假设可能被几个进化过程所违背,包括(密切)相关病毒之间的同源基因交换、基因复制和水平基因转移(HGT),所有这些都涉及一种或另一种形式的重组,或不完全的谱系排序。在系统发育方面,这种违背可能通过为不同基因组区域构建的树的不一致性来揭示(图3F)。由于与病毒数据集的大小和多样性有关的各种技术原因,树也可能变得不一致。这些特征使一致性检验的解释变得复杂,一致性检验被广泛用于不同的程序来识别病毒的重组。系统发育重建的其他缺陷包括:无法解决高度分化的谱系的基础分支模式(图3D),以及在真正(未知)的系统发育中,只有远亲关系且不形成单系群的谱系的相对紧密聚类(图3E)。后一种现象被称为长枝吸引(LBA), LBA产生的系统发育假象最常被孤立观察到,也就是说,树中的长枝代表了遥远的谱系,没有已知的近亲。

病毒系统发育树的应用

系统发育分析被广泛应用于病毒研究的应用和基本问题,包括流行病学、诊断学、法医研究、系统地理学、病毒的起源、进化和分类学。在病毒大流行爆发期间,首先要回答的问题是病毒的特性和起源。对这些问题的回答构成了立即实施实际措施和前瞻性规划的基础,从而能够具体和迅速地发现病毒和遏制流行病,其中可包括使用和开发抗病毒药物和疫苗。在病毒流行早期为病毒识别而进行的不同分析中,系统发育特征用于确定新识别的病毒与所有其他先前特征和测序的病毒的关系。

这种分析的结果可能足以回答所提出的问题,正如密切监测的病毒经常出现的情况一样,这些病毒包括流感病毒、人体免疫缺陷病毒(艾滋病毒)、丙型肝炎病毒(丙型肝炎病毒)、脊髓灰质炎病毒和其他具有高度社会影响的大多数人类病毒。对于这些病毒,存在着以前鉴定的分离株和毒株的大型数据库,全面涵盖了迄今为止鉴定的自然多样性。如果一种新发现的病毒属于这些物种中的一种,那么它很有可能是从先前采样的分离株或接近的变种进化而来的,这在系统发育树中这些病毒的聚类中立即变得明显起来。结合基因特异性和全基因组系统发育分析的结果,可以确定重组是否促成了分离的起源。例如,重组被发现在丙型肝炎病毒的进化中极为罕见,但在脊髓灰质炎病毒谱系中却并非如此,脊髓灰质炎病毒还与密切相关的人类柯萨奇A病毒混杂重组,这两种病毒都属于被称为肠病毒C的人类肠道病毒的同一病毒种。

当一种新出现的感染是由一种从未检测到的新病毒引起时,系统发育分析有助于对这种病毒进行分类,在人畜共患病感染的情况下,有助于确定病毒传入(人类)人群的动态,并开始寻找天然病毒宿主。许多新出现的感染就是这种情况,包括副粘病毒尼帕病毒、SARS冠状病毒(SARS- cov)、MERS冠状病毒(MERS- cov)、埃博拉病毒和寨卡病毒。以SARS-CoV为例,由于当时对该谱系中的冠状病毒多样性采样不足,对冠状病毒的系统发育和分类之间的关系存在一些不确定性,以及对包括孤立的遥远谱系的病毒数据集进行系统发育分析的复杂性,导致对SARS-CoV在冠状病毒中的确切进化位置产生了相当大的争议。从那时起,问题已经完全解决,但这一经验说明了推断病毒系统发育的一些挑战。

寻找一种新出现病毒的人畜共患病毒库可能需要进行大量和耗时的工作,需要对为实现这一目标而产生的病毒多样性不断扩大的采样进行大量的系统发育分析。在这一探索中,系统发育分析引导了这一努力,并为重建促进病毒起源和传播的主要进化事件的参数提供了关键信息。例如,在灵长类慢病毒树中,艾滋病毒和猴免疫缺陷病毒(SIV)的谱系交织在一起,导致了这样一个假设:人类种群中现有的艾滋病毒的多样性源于多年来从灵长类中独立引入的几种祖先病毒。采用了类似的系统发育推理,将当地艾滋病毒爆发的起源追溯到通过牙科诊所(称为“艾滋病毒牙医”病例)感染艾滋病毒的常见来源。这些典型的例子说明了系统发育分析在流行病学和法医研究中的效用。

病毒分离地点的地理分布是评估病毒系统发育的另一个重要特征。这一研究领域属于系统地理学。人类JC多瘤病毒的演变提供了一个例子,说明病毒群集的传播仅限于以三大洲为代表的地理隔离地区。西尼罗病毒在美国的发现说明了旧世界病毒向新世界的地理扩张。对从欧洲各地不同动物采样的横纹鱼病毒科狂犬病毒的现场分离株进行系统发育分析后,认识到与地理扩张相比,种间病毒扩张更快。

系统发育学还可以揭示有关病毒-宿主关联随时间变化的相对强度的信息。在某些病毒科(如冠状病毒科)中,宿主跳跃事件在形成新物种时可能相对频繁,包括至少三种人类病毒的出现,即终端SARS-CoV和MERS-CoV,并成功传播人类冠状病毒OC43 (HCoV-OC43)。在光谱的另一端,人们发现疱疹病毒科。对疱疹病毒及其宿主的广泛系统发育分析显示,该病毒家族在树的拓扑结构上具有显著的一致性,这表明该病毒家族可能出现在约4亿年前,疱疹病毒主要与宿主共种。此外,通过系统发育分析可以发现,大多数病毒,特别是RNA病毒,进化速度比细胞生物快一个数量级。例如,即使是由巢状病毒编码的最保守的酶(仅包含4个RNA病毒科),在进化过程中积累的替代数量也比整个ToL的对应酶多两倍以上,通过各自系统发育树的分支长度估算(图1)。考虑到所有细胞生物的MRCA都早于巢状病毒,这表明,在长期进化过程中,病毒蛋白质的大多数残基比细胞蛋白质残基发生了重复和更频繁的变化。事实上,考虑到RNA病毒的微小基因组无法产生足够的遗传变异,这种高进化速率似乎是它们在不断变化的环境中保持适应的先决条件。

系统发育分析在病毒分类(分类学)中变得越来越重要,分类学的发展依赖于复杂的多字符规则,由各自的“研究组”应用于不同的病毒科。对于在属级别以上的高级分类单元中联合的病毒,大多数保守复制基因的系统发育聚类通常被观察到并用于决策过程。例如,人类戊型肝炎病毒最初主要是利用病毒粒子的特性被分类为杯状病毒,但最终由于基因组特征(包括系统发育分析结果)的不匹配而被逐出家族。系统发育方面的考虑也在建立新科中发挥了重要作用,例如Marnaviridae和Dicistroviridae。相比之下,系统发育分析在大型DNA噬菌体的分类学上的作用相对较小,这种方法是通过现有的家族将具有不同基因布局和系统发育的噬菌体联合起来。系统发育和分类学之间的关系在不断发展,利用成对进化距离分析从树木单系类群中提取分类结构。在未来,人们可能希望在病毒分类学上取得重要进展,以改善与系统发育有关的跨科一致性。

参考资料: